3 de febrero del 2023

Introducción

Motivacion

Silver, David, et al. “Mastering the game of go without human knowledge.” (2017).
Berner, Christopher, et al. “Dota 2 with large scale deep reinforcement learning.” (2019).

Aprendizaje por refuerzo

DRL aplicado a la robotica

Andrychowicz, OpenAI: Marcin, et al. “Learning dexterous in-hand manipulation.” (2020).
Akkaya, Ilge, et al. “Solving rubik’s cube with a robot hand.” (2019).

Planteamiento del problema

Algunas de las complicaciones de aplicar directamente DRL a robots reales son:

  • Ineficiencia de muestreo
  • Riesgo de seguridad
  • Es dificil reiniciar el entorno

Aprendiendo en simulacion

Tiempo de entrenamiento en DRL en simulacion

Estado del arte

Simulator Physics Photorealistic DR ROS GPU Multi-GPU
Gazebo
Pybullet
MuJoCo
Unity
Isaac Sim

Isaac Gym

Hipótesis

“Es posible generar una política de control optimizada para la solución de una tarea de seguimiento de trayectorias sobre superficies tridimensionales usando un robot manipulador, mediante un ambiente de simulación física realista que provea las observaciones necesarias para el entrenamiento, empleando una combinación de técnicas de control tradicionales y algoritmos de DRL de forma eficiente, reduciendo el número de interacciones del agente y los recursos computacionales durante el entrenamiento”

Objetivos

  • Realizar una comparación entre los simuladores robóticos y un estudio de compatibilidad con los frameworks de ML.
  • Proponer una arquitectura experimental que permita generar las observaciones necesarias para el entrenamiento de un agente que permita resolver la tarea asignada.
  • Hacer una comparación del rendimiento de entrenamiento, utilizando la metodología propuesta, variando los parámetros de simulación para la tarea propuesta.

Contribución del proyecto

  1. Desarrollo de una metodología de entrenamiento de modelos de DRL para resolver tareas de seguimiento de trayectorias en superficies tridimensionales de forma end-to-end.
  2. Una política capaz de inferir de la fuerza aplicada a los motores a partir de solo las imágenes de un sensor RGBD ubicado en el efector final del robot.
  3. Proposición de una arquitectura de entrenamiento que implementa un simulador robótico de vanguardia y un framework de DL de alto rendimiento de manera eficiente.
  4. Reducción del tiempo y los recursos computacionales requeridos para el entrenamiento de modelos de DRL.

Aplicaciones

Aplicación directa de las politicas a la automatización de procesos industriales con robots:

  • Soldadura
  • Pintura
  • Aplicación de aditivos
  • Manufactura aditiva

Metodología

Arquitectura del sistema de aprendizaje

Generador de datos sintéticos de entrenamiento

TODO

Aprendizaje por refuerzo

TODO

Arquitectura de red neuronal

Algoritmo de entrenamiento

TODO

Resultados

Desempeno de la politica

Resultados de entrenamiento

Demo

Conclusiones y trabajo futuro

Conclusiones

  • Este trabajo propone metodología para resolver el problema de seguimiento de trayectoria en superficies tridimensionales de forma end-to-end, mediante una combinación de algoritmos de DRL y tecnicas de control tradicionales.
  • La política generada tiene una tasa de éxito del 96% y un error en la posición de \(\pm\) 0.01 metros.
  • Se logro reducir en 30% el tiempo de entrenamiento mediante la paralelizacion de 512 ambiente en una sola GPU Nvidia 3070.
  • Este trabajo es pionero en resolver tareas de manipulación guiadas con visión en la plataforma de investigación de RL de Isaac Gym y podría habilitar el desarrollo de trabajos futuros en el área de DRL y visión por computadora.

Trabajo futuro

  • Ampliar el estudio a otros agentes manipuladores y el desarrollo de políticas de control generalizadas.
  • Transferir la politica aprendida en simulacion a agentes reales (i.e., sim2real) mendiante el uso de tecnicas de Domain Randomization.
  • Ampliar el alcance de la tarea a cualquier objeto 3D arbitrario.